{
 "cells": [
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "Illiberal Communication and Election Intervention During the Refugee Crisis in Germany\n",
    "\n",
    "Ashrakat Elshehawy, Konstantin Gavras, Nikolay Marinov, Federico Nanni, Harald Schoen\n",
    "\n",
    "Perspectives on Politics\n",
    "\n",
    "Dataverse link:\n",
    "\n",
    "\"Replication Data for: Illiberal Communication and Election Intervention During the Refugee Crisis in Germany\", https://doi.org/10.7910/DVN/T2FZK3, Harvard Dataverse, DRAFT VERSION, UNF:6:L4g980UvlhsPseyzqCxmKw== [fileUNF]\n",
    "\n",
    "Abalation Analysis. Script to removes keyword by keyword to to understand how dropping a word from the conspiracy dictionary affects conspiracy scores. Code implemented by Federico Nanni and Ashrakat Elshehawy\n",
    "\n",
    "Note: this script takes several hours to run, please also change your working directory"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 1,
   "metadata": {},
   "outputs": [
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "/Users/ashrakatelshehawy/opt/anaconda3/lib/python3.8/site-packages/gensim/similarities/__init__.py:15: UserWarning: The gensim.similarities.levenshtein submodule is disabled, because the optional Levenshtein package <https://pypi.org/project/python-Levenshtein/> is unavailable. Install Levenhstein (e.g. `pip install python-Levenshtein`) to suppress this warning.\n",
      "  warnings.warn(msg)\n"
     ]
    }
   ],
   "source": [
    "#libraries\n",
    "import codecs, nltk, string, os, gensim\n",
    "from sklearn.metrics.pairwise import cosine_similarity\n",
    "import numpy as np\n"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 2,
   "metadata": {},
   "outputs": [],
   "source": [
    "\n",
    "\n",
    "exclude = set(string.punctuation)\n",
    "\n",
    "# embedding function\n",
    "def text_embedding(text):\n",
    "    \n",
    "    \n",
    "    # we tokenize the text in single words\n",
    "    text = nltk.tokenize.WordPunctTokenizer().tokenize(text)\n",
    "    \n",
    "    # we remove numbers and punctuation\n",
    "    text = [token for token in text if token not in exclude and token.isalpha()]\n",
    "    \n",
    "    \n",
    "    doc_embed = []\n",
    "    \n",
    "    # for each word we get the embedding and we append it to a list\n",
    "    for word in text:\n",
    "        if word in emb_model:\n",
    "            embed_word = emb_model[word]\n",
    "            doc_embed.append(embed_word)\n",
    "        else:\n",
    "            if word.lower() in emb_model:\n",
    "                embed_word = emb_model[word.lower()]\n",
    "                doc_embed.append(embed_word)\n",
    "            \n",
    "    # we average the embeddings of all the words, getting an overall doc embedding\n",
    "    if len(doc_embed)>0:\n",
    "        avg = [float(sum(col))/len(col) for col in zip(*doc_embed)]\n",
    "\n",
    "        avg = np.array(avg).reshape(1, -1)\n",
    "\n",
    "        # the output is a doc-embedding\n",
    "        return avg\n",
    "    else:\n",
    "        return \"Empty\"\n",
    "    \n",
    "def rank_words(text,emb,topic_words):\n",
    "    \n",
    "\n",
    "    # we tokenize the text in single words\n",
    "    text = nltk.tokenize.WordPunctTokenizer().tokenize(text)\n",
    "    \n",
    "    # we remove numbers and punctuation\n",
    "    text = [token for token in text if token not in exclude and token.isalpha()]\n",
    "    \n",
    "    \n",
    "    text = list(set(text))\n",
    "    \n",
    "    ranking = []\n",
    "    \n",
    "    for word in text:\n",
    "        if word.lower() in topic_words:\n",
    "            check = \"IN-DICT\"\n",
    "        else:\n",
    "            check = \"OUT-OF-DICT\"\n",
    "        if word in emb_model:\n",
    "            embed_word = emb_model[word]\n",
    "            embed_word = np.array(embed_word).reshape(1, -1) \n",
    "            cs = cosine_similarity(emb, embed_word)[0][0]\n",
    "            ranking.append([word,cs,check])\n",
    "        else:\n",
    "            if word.lower() in emb_model:\n",
    "                embed_word = emb_model[word.lower()]\n",
    "                embed_word = np.array(embed_word).reshape(1, -1) \n",
    "                cs = cosine_similarity(emb, embed_word)[0][0]\n",
    "                ranking.append([word.lower(),cs,check])\n",
    "    ranking.sort(key=lambda x: x[1],reverse=True)\n",
    "    return (ranking)"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 4,
   "metadata": {},
   "outputs": [],
   "source": [
    "# add the path to the embedding_file\n",
    "embed_file = '/Users/ashrakatelshehawy/wiki.de.vec'\n",
    "emb_model = gensim.models.KeyedVectors.load_word2vec_format(embed_file, binary=False)"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 6,
   "metadata": {},
   "outputs": [
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "We don't have embeddings for these words:\n",
      "\n",
      "verspekulieren\n",
      "Weltlenker\n",
      "Meinungstyrannen\n"
     ]
    }
   ],
   "source": [
    "topics = open(\"/Users/ashrakatelshehawy/Dictionaries/topics-classification.txt\",\"r\").read().strip().split(\"\\n\")\n",
    "topics = [x.split(\"\\t\") for x in topics if len(x)>1]\n",
    "\n",
    "topics_emb = {}\n",
    "\n",
    "topics_words = {}\n",
    "\n",
    "print (\"We don't have embeddings for these words:\\n\")\n",
    "\n",
    "for topic in topics:\n",
    "    label = topic[0].replace(\":\",\"\")\n",
    "    words = topic[1].split(\",\")\n",
    "    topics_words[label] = words\n",
    "    words = [x.strip().replace('\"','') for x in words]\n",
    "    topic_emb = text_embedding(\" \".join(words))\n",
    "    topics_emb[label] = topic_emb\n",
    "    for word in words:\n",
    "        if len(text_embedding(word))>1 and len(text_embedding(word.lower()))>1:\n",
    "            print (word)\n",
    "\n"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 7,
   "metadata": {},
   "outputs": [
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "12\n"
     ]
    }
   ],
   "source": [
    "import os\n",
    "from sklearn.metrics.pairwise import cosine_similarity\n",
    "\n",
    "refugee = \"/Users/ashrakatelshehawy/Dropbox/Refugee Relevant Media pieces/\"\n",
    "\n",
    "\n",
    "# choose the collection\n",
    "\n",
    "collection = refugee\n",
    "\n",
    "# choose the topic among 'FinanceEconomy', 'DegradationCrime', 'PopulismConspiracyColRevolt'\n",
    "\n",
    "topic = \"PopulismConspiracyColRevolt\"\n",
    "\n",
    "\n",
    "t_emb = topics_emb[topic]\n",
    "\n",
    "topic_words = [x.lower() for x in topics_words[topic]]\n",
    "print (len(topic_words))"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 9,
   "metadata": {},
   "outputs": [
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "sueddeutsche_relevant-migrant-news.csv\n",
      "3832\n",
      "0 3832\n",
      "10 3832\n",
      "20 3832\n",
      "30 3832\n",
      "40 3832\n",
      "50 3832\n",
      "60 3832\n",
      "70 3832\n",
      "80 3832\n",
      "90 3832\n",
      "100 3832\n",
      "110 3832\n",
      "120 3832\n",
      "130 3832\n",
      "140 3832\n",
      "150 3832\n",
      "160 3832\n",
      "170 3832\n",
      "180 3832\n",
      "190 3832\n",
      "200 3832\n",
      "210 3832\n",
      "220 3832\n",
      "230 3832\n",
      "240 3832\n",
      "250 3832\n",
      "260 3832\n",
      "270 3832\n",
      "280 3832\n",
      "290 3832\n",
      "300 3832\n",
      "310 3832\n",
      "320 3832\n",
      "330 3832\n",
      "340 3832\n",
      "350 3832\n",
      "360 3832\n",
      "370 3832\n",
      "380 3832\n",
      "390 3832\n",
      "400 3832\n",
      "410 3832\n",
      "420 3832\n",
      "430 3832\n",
      "440 3832\n",
      "450 3832\n",
      "460 3832\n",
      "470 3832\n",
      "480 3832\n",
      "490 3832\n",
      "500 3832\n",
      "510 3832\n",
      "520 3832\n",
      "530 3832\n",
      "540 3832\n",
      "550 3832\n",
      "560 3832\n",
      "570 3832\n",
      "580 3832\n",
      "590 3832\n",
      "600 3832\n",
      "610 3832\n",
      "620 3832\n",
      "630 3832\n",
      "640 3832\n",
      "650 3832\n",
      "660 3832\n",
      "670 3832\n",
      "680 3832\n",
      "690 3832\n",
      "700 3832\n",
      "710 3832\n",
      "720 3832\n",
      "730 3832\n",
      "740 3832\n",
      "750 3832\n",
      "760 3832\n",
      "770 3832\n",
      "780 3832\n",
      "790 3832\n",
      "800 3832\n",
      "810 3832\n",
      "820 3832\n",
      "830 3832\n",
      "840 3832\n",
      "850 3832\n",
      "860 3832\n",
      "870 3832\n",
      "880 3832\n",
      "890 3832\n",
      "900 3832\n",
      "910 3832\n",
      "920 3832\n",
      "930 3832\n",
      "940 3832\n",
      "950 3832\n",
      "960 3832\n",
      "970 3832\n",
      "980 3832\n",
      "990 3832\n",
      "1000 3832\n",
      "1010 3832\n",
      "1020 3832\n",
      "1030 3832\n",
      "1040 3832\n",
      "1050 3832\n",
      "1060 3832\n",
      "1070 3832\n",
      "1080 3832\n",
      "1090 3832\n",
      "1100 3832\n",
      "1110 3832\n",
      "1120 3832\n",
      "1130 3832\n",
      "1140 3832\n",
      "1150 3832\n",
      "1160 3832\n",
      "1170 3832\n",
      "1180 3832\n",
      "1190 3832\n",
      "1200 3832\n",
      "1210 3832\n",
      "1220 3832\n",
      "1230 3832\n",
      "1240 3832\n",
      "1250 3832\n",
      "1260 3832\n",
      "1270 3832\n",
      "1280 3832\n",
      "1290 3832\n",
      "1300 3832\n",
      "1310 3832\n",
      "1320 3832\n",
      "1330 3832\n",
      "1340 3832\n",
      "1350 3832\n",
      "1360 3832\n",
      "1370 3832\n",
      "1380 3832\n",
      "1390 3832\n",
      "1400 3832\n",
      "1410 3832\n",
      "1420 3832\n",
      "1430 3832\n",
      "1440 3832\n",
      "1450 3832\n",
      "1460 3832\n",
      "1470 3832\n",
      "1480 3832\n",
      "1490 3832\n",
      "1500 3832\n",
      "1510 3832\n",
      "1520 3832\n",
      "1530 3832\n",
      "1540 3832\n",
      "1550 3832\n",
      "1560 3832\n",
      "1570 3832\n",
      "1580 3832\n",
      "1590 3832\n",
      "1600 3832\n",
      "1610 3832\n",
      "1620 3832\n",
      "1630 3832\n",
      "1640 3832\n",
      "1650 3832\n",
      "1660 3832\n",
      "1670 3832\n",
      "1680 3832\n",
      "1690 3832\n",
      "1700 3832\n",
      "1710 3832\n",
      "1720 3832\n",
      "1730 3832\n",
      "1740 3832\n",
      "1750 3832\n",
      "1760 3832\n",
      "1770 3832\n",
      "1780 3832\n",
      "1790 3832\n",
      "1800 3832\n",
      "1810 3832\n",
      "1820 3832\n",
      "1830 3832\n",
      "1840 3832\n",
      "1850 3832\n",
      "1860 3832\n",
      "1870 3832\n",
      "1880 3832\n",
      "1890 3832\n",
      "1900 3832\n",
      "1910 3832\n",
      "1920 3832\n",
      "1930 3832\n",
      "1940 3832\n",
      "1950 3832\n",
      "1960 3832\n",
      "1970 3832\n",
      "1980 3832\n",
      "1990 3832\n",
      "2000 3832\n",
      "2010 3832\n",
      "2020 3832\n",
      "2030 3832\n",
      "2040 3832\n",
      "2050 3832\n",
      "2060 3832\n",
      "2070 3832\n",
      "2080 3832\n",
      "2090 3832\n",
      "2100 3832\n",
      "2110 3832\n",
      "2120 3832\n",
      "2130 3832\n",
      "2140 3832\n",
      "2150 3832\n",
      "2160 3832\n",
      "2170 3832\n",
      "2180 3832\n",
      "2190 3832\n",
      "2200 3832\n",
      "2210 3832\n",
      "2220 3832\n",
      "2230 3832\n",
      "2240 3832\n",
      "2250 3832\n",
      "2260 3832\n",
      "2270 3832\n",
      "2280 3832\n",
      "2290 3832\n",
      "2300 3832\n",
      "2310 3832\n",
      "2320 3832\n",
      "2330 3832\n",
      "2340 3832\n",
      "2350 3832\n",
      "2360 3832\n",
      "2370 3832\n",
      "2380 3832\n",
      "2390 3832\n",
      "2400 3832\n",
      "2410 3832\n",
      "2420 3832\n",
      "2430 3832\n",
      "2440 3832\n",
      "2450 3832\n",
      "2460 3832\n",
      "2470 3832\n",
      "2480 3832\n",
      "2490 3832\n",
      "2500 3832\n",
      "2510 3832\n",
      "2520 3832\n",
      "2530 3832\n",
      "2540 3832\n",
      "2550 3832\n",
      "2560 3832\n",
      "2570 3832\n",
      "2580 3832\n",
      "2590 3832\n",
      "2600 3832\n",
      "2610 3832\n",
      "2620 3832\n",
      "2630 3832\n",
      "2640 3832\n",
      "2650 3832\n",
      "2660 3832\n",
      "2670 3832\n",
      "2680 3832\n",
      "2690 3832\n",
      "2700 3832\n",
      "2710 3832\n",
      "2720 3832\n",
      "2730 3832\n",
      "2740 3832\n",
      "2750 3832\n",
      "2760 3832\n",
      "2770 3832\n",
      "2780 3832\n",
      "2790 3832\n",
      "2800 3832\n",
      "2810 3832\n",
      "2820 3832\n",
      "2830 3832\n",
      "2840 3832\n",
      "2850 3832\n",
      "2860 3832\n",
      "2870 3832\n",
      "2880 3832\n",
      "2890 3832\n",
      "2900 3832\n",
      "2910 3832\n",
      "2920 3832\n",
      "2930 3832\n",
      "2940 3832\n",
      "2950 3832\n",
      "2960 3832\n",
      "2970 3832\n",
      "2980 3832\n",
      "2990 3832\n",
      "3000 3832\n",
      "3010 3832\n",
      "3020 3832\n",
      "3030 3832\n",
      "3040 3832\n",
      "3050 3832\n",
      "3060 3832\n",
      "3070 3832\n",
      "3080 3832\n",
      "3090 3832\n",
      "3100 3832\n",
      "3110 3832\n",
      "3120 3832\n",
      "3130 3832\n",
      "3140 3832\n",
      "3150 3832\n",
      "3160 3832\n",
      "3170 3832\n",
      "3180 3832\n",
      "3190 3832\n",
      "3200 3832\n",
      "3210 3832\n",
      "3220 3832\n",
      "3230 3832\n",
      "3240 3832\n",
      "3250 3832\n",
      "3260 3832\n",
      "3270 3832\n",
      "3280 3832\n",
      "3290 3832\n",
      "3300 3832\n",
      "3310 3832\n",
      "3320 3832\n",
      "3330 3832\n",
      "3340 3832\n",
      "3350 3832\n",
      "3360 3832\n",
      "3370 3832\n",
      "3380 3832\n",
      "3390 3832\n",
      "3400 3832\n",
      "3410 3832\n",
      "3420 3832\n",
      "3430 3832\n",
      "3440 3832\n",
      "3450 3832\n",
      "3460 3832\n",
      "3470 3832\n",
      "3480 3832\n",
      "3490 3832\n",
      "3500 3832\n",
      "3510 3832\n",
      "3520 3832\n",
      "3530 3832\n",
      "3540 3832\n",
      "3550 3832\n",
      "3560 3832\n",
      "3570 3832\n",
      "3580 3832\n",
      "3590 3832\n",
      "3600 3832\n",
      "3610 3832\n",
      "3620 3832\n",
      "3630 3832\n",
      "3640 3832\n",
      "3650 3832\n",
      "3660 3832\n",
      "3670 3832\n",
      "3680 3832\n",
      "3690 3832\n",
      "3700 3832\n",
      "3710 3832\n",
      "3720 3832\n",
      "3730 3832\n",
      "3740 3832\n",
      "3750 3832\n",
      "3760 3832\n",
      "3770 3832\n",
      "3780 3832\n",
      "3790 3832\n",
      "3800 3832\n",
      "3810 3832\n",
      "3820 3832\n",
      "3830 3832\n",
      "sputnik_relevant-migrant-news.csv\n",
      "3324\n",
      "0 3324\n",
      "10 3324\n",
      "20 3324\n",
      "30 3324\n",
      "40 3324\n",
      "50 3324\n",
      "60 3324\n",
      "70 3324\n",
      "80 3324\n",
      "90 3324\n",
      "100 3324\n",
      "110 3324\n",
      "120 3324\n",
      "130 3324\n",
      "140 3324\n",
      "150 3324\n",
      "160 3324\n",
      "170 3324\n",
      "180 3324\n",
      "190 3324\n",
      "200 3324\n",
      "210 3324\n",
      "220 3324\n",
      "230 3324\n",
      "240 3324\n",
      "250 3324\n",
      "260 3324\n",
      "270 3324\n",
      "280 3324\n",
      "290 3324\n",
      "300 3324\n",
      "310 3324\n",
      "320 3324\n",
      "330 3324\n",
      "340 3324\n",
      "350 3324\n",
      "360 3324\n",
      "370 3324\n",
      "380 3324\n",
      "390 3324\n",
      "400 3324\n",
      "410 3324\n",
      "420 3324\n",
      "430 3324\n",
      "440 3324\n",
      "450 3324\n",
      "460 3324\n",
      "470 3324\n",
      "480 3324\n",
      "490 3324\n",
      "500 3324\n",
      "510 3324\n",
      "520 3324\n",
      "530 3324\n",
      "540 3324\n",
      "550 3324\n",
      "560 3324\n",
      "570 3324\n",
      "580 3324\n",
      "590 3324\n",
      "600 3324\n",
      "610 3324\n",
      "620 3324\n",
      "630 3324\n",
      "640 3324\n",
      "650 3324\n",
      "660 3324\n",
      "670 3324\n",
      "680 3324\n",
      "690 3324\n",
      "700 3324\n",
      "710 3324\n",
      "720 3324\n",
      "730 3324\n",
      "740 3324\n",
      "750 3324\n",
      "760 3324\n",
      "770 3324\n",
      "780 3324\n",
      "790 3324\n",
      "800 3324\n",
      "810 3324\n",
      "820 3324\n",
      "830 3324\n",
      "840 3324\n",
      "850 3324\n",
      "860 3324\n",
      "870 3324\n",
      "880 3324\n",
      "890 3324\n",
      "900 3324\n",
      "910 3324\n",
      "920 3324\n",
      "930 3324\n",
      "940 3324\n",
      "950 3324\n",
      "960 3324\n",
      "970 3324\n",
      "980 3324\n",
      "990 3324\n",
      "1000 3324\n",
      "1010 3324\n",
      "1020 3324\n",
      "1030 3324\n",
      "1040 3324\n",
      "1050 3324\n",
      "1060 3324\n",
      "1070 3324\n",
      "1080 3324\n",
      "1090 3324\n",
      "1100 3324\n",
      "1110 3324\n",
      "1120 3324\n",
      "1130 3324\n",
      "1140 3324\n",
      "1150 3324\n",
      "1160 3324\n",
      "1170 3324\n",
      "1180 3324\n",
      "1190 3324\n",
      "1200 3324\n",
      "1210 3324\n",
      "1220 3324\n",
      "1230 3324\n",
      "1240 3324\n",
      "1250 3324\n",
      "1260 3324\n",
      "1270 3324\n",
      "1280 3324\n",
      "1290 3324\n",
      "1300 3324\n",
      "1310 3324\n",
      "1320 3324\n",
      "1330 3324\n",
      "1340 3324\n",
      "1350 3324\n",
      "1360 3324\n",
      "1370 3324\n",
      "1380 3324\n",
      "1390 3324\n",
      "1400 3324\n",
      "1410 3324\n",
      "1420 3324\n",
      "1430 3324\n",
      "1440 3324\n",
      "1450 3324\n",
      "1460 3324\n",
      "1470 3324\n",
      "1480 3324\n",
      "1490 3324\n",
      "1500 3324\n",
      "1510 3324\n",
      "1520 3324\n",
      "1530 3324\n",
      "1540 3324\n",
      "1550 3324\n",
      "1560 3324\n",
      "1570 3324\n",
      "1580 3324\n",
      "1590 3324\n",
      "1600 3324\n",
      "1610 3324\n",
      "1620 3324\n",
      "1630 3324\n",
      "1640 3324\n",
      "1650 3324\n",
      "1660 3324\n",
      "1670 3324\n",
      "1680 3324\n",
      "1690 3324\n",
      "1700 3324\n",
      "1710 3324\n",
      "1720 3324\n",
      "1730 3324\n",
      "1740 3324\n",
      "1750 3324\n",
      "1760 3324\n",
      "1770 3324\n",
      "1780 3324\n",
      "1790 3324\n",
      "1800 3324\n",
      "1810 3324\n",
      "1820 3324\n",
      "1830 3324\n",
      "1840 3324\n",
      "1850 3324\n",
      "1860 3324\n",
      "1870 3324\n",
      "1880 3324\n",
      "1890 3324\n",
      "1900 3324\n",
      "1910 3324\n",
      "1920 3324\n",
      "1930 3324\n",
      "1940 3324\n",
      "1950 3324\n",
      "1960 3324\n",
      "1970 3324\n",
      "1980 3324\n",
      "1990 3324\n",
      "2000 3324\n",
      "2010 3324\n",
      "2020 3324\n",
      "2030 3324\n",
      "2040 3324\n",
      "2050 3324\n",
      "2060 3324\n",
      "2070 3324\n",
      "2080 3324\n",
      "2090 3324\n",
      "2100 3324\n",
      "2110 3324\n",
      "2120 3324\n",
      "2130 3324\n",
      "2140 3324\n",
      "2150 3324\n",
      "2160 3324\n",
      "2170 3324\n",
      "2180 3324\n",
      "2190 3324\n",
      "2200 3324\n",
      "2210 3324\n",
      "2220 3324\n",
      "2230 3324\n",
      "2240 3324\n",
      "2250 3324\n",
      "2260 3324\n",
      "2270 3324\n",
      "2280 3324\n",
      "2290 3324\n",
      "2300 3324\n",
      "2310 3324\n",
      "2320 3324\n",
      "2330 3324\n",
      "2340 3324\n",
      "2350 3324\n",
      "2360 3324\n",
      "2370 3324\n",
      "2380 3324\n",
      "2390 3324\n",
      "2400 3324\n",
      "2410 3324\n",
      "2420 3324\n",
      "2430 3324\n",
      "2440 3324\n",
      "2450 3324\n",
      "2460 3324\n",
      "2470 3324\n",
      "2480 3324\n",
      "2490 3324\n",
      "2500 3324\n",
      "2510 3324\n",
      "2520 3324\n",
      "2530 3324\n",
      "2540 3324\n",
      "2550 3324\n",
      "2560 3324\n",
      "2570 3324\n",
      "2580 3324\n",
      "2590 3324\n",
      "2600 3324\n",
      "2610 3324\n",
      "2620 3324\n",
      "2630 3324\n",
      "2640 3324\n",
      "2650 3324\n",
      "2660 3324\n",
      "2670 3324\n",
      "2680 3324\n",
      "2690 3324\n",
      "2700 3324\n",
      "2710 3324\n",
      "2720 3324\n",
      "2730 3324\n",
      "2740 3324\n",
      "2750 3324\n",
      "2760 3324\n",
      "2770 3324\n",
      "2780 3324\n",
      "2790 3324\n",
      "2800 3324\n",
      "2810 3324\n",
      "2820 3324\n",
      "2830 3324\n",
      "2840 3324\n",
      "2850 3324\n",
      "2860 3324\n",
      "2870 3324\n",
      "2880 3324\n",
      "2890 3324\n",
      "2900 3324\n",
      "2910 3324\n",
      "2920 3324\n",
      "2930 3324\n",
      "2940 3324\n",
      "2950 3324\n",
      "2960 3324\n",
      "2970 3324\n",
      "2980 3324\n",
      "2990 3324\n",
      "3000 3324\n",
      "3010 3324\n",
      "3020 3324\n",
      "3030 3324\n",
      "3040 3324\n",
      "3050 3324\n",
      "3060 3324\n",
      "3070 3324\n",
      "3080 3324\n",
      "3090 3324\n",
      "3100 3324\n",
      "3110 3324\n",
      "3120 3324\n",
      "3130 3324\n",
      "3140 3324\n",
      "3150 3324\n",
      "3160 3324\n",
      "3170 3324\n",
      "3180 3324\n",
      "3190 3324\n",
      "3200 3324\n",
      "3210 3324\n",
      "3220 3324\n",
      "3230 3324\n",
      "3240 3324\n",
      "3250 3324\n",
      "3260 3324\n",
      "3270 3324\n",
      "3280 3324\n",
      "3290 3324\n",
      "3300 3324\n",
      "3310 3324\n",
      "3320 3324\n",
      "welt_relevant-migrant-news.csv\n",
      "4073\n",
      "0 4073\n",
      "10 4073\n",
      "20 4073\n",
      "30 4073\n",
      "40 4073\n",
      "50 4073\n",
      "60 4073\n",
      "70 4073\n",
      "80 4073\n",
      "90 4073\n",
      "100 4073\n",
      "110 4073\n",
      "120 4073\n",
      "130 4073\n",
      "140 4073\n",
      "150 4073\n",
      "160 4073\n",
      "170 4073\n",
      "180 4073\n",
      "190 4073\n",
      "200 4073\n",
      "210 4073\n",
      "220 4073\n",
      "230 4073\n",
      "240 4073\n",
      "250 4073\n",
      "260 4073\n",
      "270 4073\n",
      "280 4073\n",
      "290 4073\n",
      "300 4073\n",
      "310 4073\n",
      "320 4073\n",
      "330 4073\n",
      "340 4073\n",
      "350 4073\n",
      "360 4073\n",
      "370 4073\n",
      "380 4073\n",
      "390 4073\n",
      "400 4073\n",
      "410 4073\n",
      "420 4073\n",
      "430 4073\n",
      "440 4073\n",
      "450 4073\n",
      "460 4073\n",
      "470 4073\n",
      "480 4073\n",
      "490 4073\n",
      "500 4073\n",
      "510 4073\n",
      "520 4073\n",
      "530 4073\n",
      "540 4073\n",
      "550 4073\n",
      "560 4073\n",
      "570 4073\n",
      "580 4073\n",
      "590 4073\n",
      "600 4073\n",
      "610 4073\n",
      "620 4073\n",
      "630 4073\n",
      "640 4073\n",
      "650 4073\n",
      "660 4073\n",
      "670 4073\n",
      "680 4073\n",
      "690 4073\n",
      "700 4073\n",
      "710 4073\n",
      "720 4073\n",
      "730 4073\n",
      "740 4073\n",
      "750 4073\n",
      "760 4073\n",
      "770 4073\n",
      "780 4073\n",
      "790 4073\n",
      "800 4073\n",
      "810 4073\n",
      "820 4073\n",
      "830 4073\n",
      "840 4073\n",
      "850 4073\n",
      "860 4073\n",
      "870 4073\n",
      "880 4073\n",
      "890 4073\n",
      "900 4073\n",
      "910 4073\n",
      "920 4073\n",
      "930 4073\n",
      "940 4073\n",
      "950 4073\n",
      "960 4073\n",
      "970 4073\n",
      "980 4073\n",
      "990 4073\n",
      "1000 4073\n",
      "1010 4073\n",
      "1020 4073\n",
      "1030 4073\n",
      "1040 4073\n",
      "1050 4073\n",
      "1060 4073\n",
      "1070 4073\n",
      "1080 4073\n",
      "1090 4073\n",
      "1100 4073\n",
      "1110 4073\n",
      "1120 4073\n",
      "1130 4073\n",
      "1140 4073\n",
      "1150 4073\n",
      "1160 4073\n",
      "1170 4073\n",
      "1180 4073\n",
      "1190 4073\n",
      "1200 4073\n",
      "1210 4073\n",
      "1220 4073\n",
      "1230 4073\n"
     ]
    },
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "1240 4073\n",
      "1250 4073\n",
      "1260 4073\n",
      "1270 4073\n",
      "1280 4073\n",
      "1290 4073\n",
      "1300 4073\n",
      "1310 4073\n",
      "1320 4073\n",
      "1330 4073\n",
      "1340 4073\n",
      "1350 4073\n",
      "1360 4073\n",
      "1370 4073\n",
      "1380 4073\n",
      "1390 4073\n",
      "1400 4073\n",
      "1410 4073\n",
      "1420 4073\n",
      "1430 4073\n",
      "1440 4073\n",
      "1450 4073\n",
      "1460 4073\n",
      "1470 4073\n",
      "1480 4073\n",
      "1490 4073\n",
      "1500 4073\n",
      "1510 4073\n",
      "1520 4073\n",
      "1530 4073\n",
      "1540 4073\n",
      "1550 4073\n",
      "1560 4073\n",
      "1570 4073\n",
      "1580 4073\n",
      "1590 4073\n",
      "1600 4073\n",
      "1610 4073\n",
      "1620 4073\n",
      "1630 4073\n",
      "1640 4073\n",
      "1650 4073\n",
      "1660 4073\n",
      "1670 4073\n",
      "1680 4073\n",
      "1690 4073\n",
      "1700 4073\n",
      "1710 4073\n",
      "1720 4073\n",
      "1730 4073\n",
      "1740 4073\n",
      "1750 4073\n",
      "1760 4073\n",
      "1770 4073\n",
      "1780 4073\n",
      "1790 4073\n",
      "1800 4073\n",
      "1810 4073\n",
      "1820 4073\n",
      "1830 4073\n",
      "1840 4073\n",
      "1850 4073\n",
      "1860 4073\n",
      "1870 4073\n",
      "1880 4073\n",
      "1890 4073\n",
      "1900 4073\n",
      "1910 4073\n",
      "1920 4073\n",
      "1930 4073\n",
      "1940 4073\n",
      "1950 4073\n",
      "1960 4073\n",
      "1970 4073\n",
      "1980 4073\n",
      "1990 4073\n",
      "2000 4073\n",
      "2010 4073\n",
      "2020 4073\n",
      "2030 4073\n",
      "2040 4073\n",
      "2050 4073\n",
      "2060 4073\n",
      "2070 4073\n",
      "2080 4073\n",
      "2090 4073\n",
      "2100 4073\n",
      "2110 4073\n",
      "2120 4073\n",
      "2130 4073\n",
      "2140 4073\n",
      "2150 4073\n",
      "2160 4073\n",
      "2170 4073\n",
      "2180 4073\n",
      "2190 4073\n",
      "2200 4073\n",
      "2210 4073\n",
      "2220 4073\n",
      "2230 4073\n",
      "2240 4073\n",
      "2250 4073\n",
      "2260 4073\n",
      "2270 4073\n",
      "2280 4073\n",
      "2290 4073\n",
      "2300 4073\n",
      "2310 4073\n",
      "2320 4073\n",
      "2330 4073\n",
      "2340 4073\n",
      "2350 4073\n",
      "2360 4073\n",
      "2370 4073\n",
      "2380 4073\n",
      "2390 4073\n",
      "2400 4073\n",
      "2410 4073\n",
      "2420 4073\n",
      "2430 4073\n",
      "2440 4073\n",
      "2450 4073\n",
      "2460 4073\n",
      "2470 4073\n",
      "2480 4073\n",
      "2490 4073\n",
      "2500 4073\n",
      "2510 4073\n",
      "2520 4073\n",
      "2530 4073\n",
      "2540 4073\n",
      "2550 4073\n",
      "2560 4073\n",
      "2570 4073\n",
      "2580 4073\n",
      "2590 4073\n",
      "2600 4073\n",
      "2610 4073\n",
      "2620 4073\n",
      "2630 4073\n",
      "2640 4073\n",
      "2650 4073\n",
      "2660 4073\n",
      "2670 4073\n",
      "2680 4073\n",
      "2690 4073\n",
      "2700 4073\n",
      "2710 4073\n",
      "2720 4073\n",
      "2730 4073\n",
      "2740 4073\n",
      "2750 4073\n",
      "2760 4073\n",
      "2770 4073\n",
      "2780 4073\n",
      "2790 4073\n",
      "2800 4073\n",
      "2810 4073\n",
      "2820 4073\n",
      "2830 4073\n",
      "2840 4073\n",
      "2850 4073\n",
      "2860 4073\n",
      "2870 4073\n",
      "2880 4073\n",
      "2890 4073\n",
      "2900 4073\n",
      "2910 4073\n",
      "2920 4073\n",
      "2930 4073\n",
      "2940 4073\n",
      "2950 4073\n",
      "2960 4073\n",
      "2970 4073\n",
      "2980 4073\n",
      "2990 4073\n",
      "3000 4073\n",
      "3010 4073\n",
      "3020 4073\n",
      "3030 4073\n",
      "3040 4073\n",
      "3050 4073\n",
      "3060 4073\n",
      "3070 4073\n",
      "3080 4073\n",
      "3090 4073\n",
      "3100 4073\n",
      "3110 4073\n",
      "3120 4073\n",
      "3130 4073\n",
      "3140 4073\n",
      "3150 4073\n",
      "3160 4073\n",
      "3170 4073\n",
      "3180 4073\n",
      "3190 4073\n",
      "3200 4073\n",
      "3210 4073\n",
      "3220 4073\n",
      "3230 4073\n",
      "3240 4073\n",
      "3250 4073\n",
      "3260 4073\n",
      "3270 4073\n",
      "3280 4073\n",
      "3290 4073\n",
      "3300 4073\n",
      "3310 4073\n",
      "3320 4073\n",
      "3330 4073\n",
      "3340 4073\n",
      "3350 4073\n",
      "3360 4073\n",
      "3370 4073\n",
      "3380 4073\n",
      "3390 4073\n",
      "3400 4073\n",
      "3410 4073\n",
      "3420 4073\n",
      "3430 4073\n",
      "3440 4073\n",
      "3450 4073\n",
      "3460 4073\n",
      "3470 4073\n",
      "3480 4073\n",
      "3490 4073\n",
      "3500 4073\n",
      "3510 4073\n",
      "3520 4073\n",
      "3530 4073\n",
      "3540 4073\n",
      "3550 4073\n",
      "3560 4073\n",
      "3570 4073\n",
      "3580 4073\n",
      "3590 4073\n",
      "3600 4073\n",
      "3610 4073\n",
      "3620 4073\n",
      "3630 4073\n",
      "3640 4073\n",
      "3650 4073\n",
      "3660 4073\n",
      "3670 4073\n",
      "3680 4073\n",
      "3690 4073\n",
      "3700 4073\n",
      "3710 4073\n",
      "3720 4073\n",
      "3730 4073\n",
      "3740 4073\n",
      "3750 4073\n",
      "3760 4073\n",
      "3770 4073\n",
      "3780 4073\n",
      "3790 4073\n",
      "3800 4073\n",
      "3810 4073\n",
      "3820 4073\n",
      "3830 4073\n",
      "3840 4073\n",
      "3850 4073\n",
      "3860 4073\n",
      "3870 4073\n",
      "3880 4073\n",
      "3890 4073\n",
      "3900 4073\n",
      "3910 4073\n",
      "3920 4073\n",
      "3930 4073\n",
      "3940 4073\n",
      "3950 4073\n",
      "3960 4073\n",
      "3970 4073\n",
      "3980 4073\n",
      "3990 4073\n",
      "4000 4073\n",
      "4010 4073\n",
      "4020 4073\n",
      "4030 4073\n",
      "4040 4073\n",
      "4050 4073\n",
      "4060 4073\n",
      "4070 4073\n",
      "bild_relevant-migrant-news.csv\n",
      "917\n",
      "0 917\n",
      "10 917\n",
      "20 917\n",
      "30 917\n",
      "40 917\n",
      "50 917\n",
      "60 917\n",
      "70 917\n",
      "80 917\n",
      "90 917\n",
      "100 917\n",
      "110 917\n",
      "120 917\n",
      "130 917\n",
      "140 917\n",
      "150 917\n",
      "160 917\n",
      "170 917\n",
      "180 917\n",
      "190 917\n",
      "200 917\n",
      "210 917\n",
      "220 917\n",
      "230 917\n",
      "240 917\n",
      "250 917\n",
      "260 917\n",
      "270 917\n",
      "280 917\n",
      "290 917\n",
      "300 917\n",
      "310 917\n",
      "320 917\n",
      "330 917\n",
      "340 917\n",
      "350 917\n",
      "360 917\n",
      "370 917\n",
      "380 917\n",
      "390 917\n",
      "400 917\n",
      "410 917\n",
      "420 917\n",
      "430 917\n",
      "440 917\n",
      "450 917\n",
      "460 917\n",
      "470 917\n",
      "480 917\n",
      "490 917\n",
      "500 917\n",
      "510 917\n",
      "520 917\n",
      "530 917\n",
      "540 917\n",
      "550 917\n",
      "560 917\n",
      "570 917\n",
      "580 917\n",
      "590 917\n",
      "600 917\n",
      "610 917\n",
      "620 917\n",
      "630 917\n",
      "640 917\n",
      "650 917\n",
      "660 917\n",
      "670 917\n",
      "680 917\n",
      "690 917\n",
      "700 917\n",
      "710 917\n",
      "720 917\n",
      "730 917\n",
      "740 917\n",
      "750 917\n",
      "760 917\n",
      "770 917\n",
      "780 917\n",
      "790 917\n",
      "800 917\n",
      "810 917\n",
      "820 917\n",
      "830 917\n",
      "840 917\n",
      "850 917\n",
      "860 917\n",
      "870 917\n",
      "880 917\n",
      "890 917\n",
      "900 917\n",
      "910 917\n",
      "rt_relevant-migrant-news.csv\n",
      "744\n",
      "0 744\n",
      "10 744\n",
      "20 744\n",
      "30 744\n",
      "40 744\n",
      "50 744\n",
      "60 744\n",
      "70 744\n",
      "80 744\n",
      "90 744\n",
      "100 744\n",
      "110 744\n",
      "120 744\n",
      "130 744\n",
      "140 744\n",
      "150 744\n",
      "160 744\n",
      "170 744\n",
      "180 744\n",
      "190 744\n",
      "200 744\n",
      "210 744\n",
      "220 744\n",
      "230 744\n",
      "240 744\n",
      "250 744\n",
      "260 744\n",
      "270 744\n",
      "280 744\n",
      "290 744\n",
      "300 744\n",
      "310 744\n",
      "320 744\n",
      "330 744\n",
      "340 744\n",
      "350 744\n",
      "360 744\n",
      "370 744\n",
      "380 744\n",
      "390 744\n",
      "400 744\n",
      "410 744\n",
      "420 744\n",
      "430 744\n",
      "440 744\n",
      "450 744\n",
      "460 744\n",
      "470 744\n",
      "480 744\n",
      "490 744\n",
      "500 744\n",
      "510 744\n",
      "520 744\n",
      "530 744\n",
      "540 744\n",
      "550 744\n",
      "560 744\n",
      "570 744\n",
      "580 744\n",
      "590 744\n",
      "600 744\n",
      "610 744\n",
      "620 744\n",
      "630 744\n",
      "640 744\n",
      "650 744\n",
      "660 744\n",
      "670 744\n",
      "680 744\n",
      "690 744\n",
      "700 744\n",
      "710 744\n",
      "720 744\n",
      "730 744\n",
      "740 744\n",
      "taz_relevant-migrant-news.csv\n",
      "3361\n",
      "0 3361\n",
      "10 3361\n",
      "20 3361\n",
      "30 3361\n",
      "40 3361\n",
      "50 3361\n",
      "60 3361\n",
      "70 3361\n",
      "80 3361\n",
      "90 3361\n",
      "100 3361\n",
      "110 3361\n",
      "120 3361\n",
      "130 3361\n",
      "140 3361\n",
      "150 3361\n",
      "160 3361\n",
      "170 3361\n",
      "180 3361\n",
      "190 3361\n",
      "200 3361\n",
      "210 3361\n",
      "220 3361\n",
      "230 3361\n",
      "240 3361\n",
      "250 3361\n",
      "260 3361\n",
      "270 3361\n",
      "280 3361\n",
      "290 3361\n",
      "300 3361\n",
      "310 3361\n",
      "320 3361\n",
      "330 3361\n",
      "340 3361\n",
      "350 3361\n",
      "360 3361\n",
      "370 3361\n",
      "380 3361\n",
      "390 3361\n",
      "400 3361\n",
      "410 3361\n",
      "420 3361\n",
      "430 3361\n",
      "440 3361\n",
      "450 3361\n",
      "460 3361\n",
      "470 3361\n",
      "480 3361\n",
      "490 3361\n",
      "500 3361\n",
      "510 3361\n",
      "520 3361\n",
      "530 3361\n",
      "540 3361\n",
      "550 3361\n",
      "560 3361\n",
      "570 3361\n",
      "580 3361\n",
      "590 3361\n",
      "600 3361\n",
      "610 3361\n",
      "620 3361\n",
      "630 3361\n",
      "640 3361\n",
      "650 3361\n",
      "660 3361\n",
      "670 3361\n",
      "680 3361\n",
      "690 3361\n",
      "700 3361\n",
      "710 3361\n",
      "720 3361\n",
      "730 3361\n",
      "740 3361\n",
      "750 3361\n",
      "760 3361\n",
      "770 3361\n",
      "780 3361\n",
      "790 3361\n",
      "800 3361\n",
      "810 3361\n",
      "820 3361\n",
      "830 3361\n",
      "840 3361\n",
      "850 3361\n",
      "860 3361\n",
      "870 3361\n",
      "880 3361\n",
      "890 3361\n",
      "900 3361\n",
      "910 3361\n",
      "920 3361\n",
      "930 3361\n",
      "940 3361\n",
      "950 3361\n",
      "960 3361\n",
      "970 3361\n",
      "980 3361\n",
      "990 3361\n",
      "1000 3361\n",
      "1010 3361\n",
      "1020 3361\n",
      "1030 3361\n",
      "1040 3361\n",
      "1050 3361\n",
      "1060 3361\n",
      "1070 3361\n",
      "1080 3361\n",
      "1090 3361\n",
      "1100 3361\n",
      "1110 3361\n",
      "1120 3361\n",
      "1130 3361\n",
      "1140 3361\n",
      "1150 3361\n",
      "1160 3361\n",
      "1170 3361\n",
      "1180 3361\n",
      "1190 3361\n",
      "1200 3361\n",
      "1210 3361\n",
      "1220 3361\n",
      "1230 3361\n",
      "1240 3361\n",
      "1250 3361\n",
      "1260 3361\n",
      "1270 3361\n",
      "1280 3361\n",
      "1290 3361\n",
      "1300 3361\n",
      "1310 3361\n",
      "1320 3361\n",
      "1330 3361\n",
      "1340 3361\n",
      "1350 3361\n",
      "1360 3361\n",
      "1370 3361\n",
      "1380 3361\n",
      "1390 3361\n",
      "1400 3361\n",
      "1410 3361\n",
      "1420 3361\n",
      "1430 3361\n",
      "1440 3361\n",
      "1450 3361\n",
      "1460 3361\n",
      "1470 3361\n",
      "1480 3361\n",
      "1490 3361\n",
      "1500 3361\n",
      "1510 3361\n",
      "1520 3361\n",
      "1530 3361\n",
      "1540 3361\n",
      "1550 3361\n",
      "1560 3361\n",
      "1570 3361\n",
      "1580 3361\n",
      "1590 3361\n",
      "1600 3361\n",
      "1610 3361\n",
      "1620 3361\n",
      "1630 3361\n",
      "1640 3361\n",
      "1650 3361\n",
      "1660 3361\n",
      "1670 3361\n",
      "1680 3361\n",
      "1690 3361\n",
      "1700 3361\n",
      "1710 3361\n",
      "1720 3361\n",
      "1730 3361\n",
      "1740 3361\n",
      "1750 3361\n",
      "1760 3361\n",
      "1770 3361\n",
      "1780 3361\n",
      "1790 3361\n",
      "1800 3361\n",
      "1810 3361\n",
      "1820 3361\n",
      "1830 3361\n",
      "1840 3361\n",
      "1850 3361\n",
      "1860 3361\n",
      "1870 3361\n",
      "1880 3361\n",
      "1890 3361\n",
      "1900 3361\n",
      "1910 3361\n",
      "1920 3361\n",
      "1930 3361\n",
      "1940 3361\n",
      "1950 3361\n",
      "1960 3361\n",
      "1970 3361\n",
      "1980 3361\n",
      "1990 3361\n",
      "2000 3361\n",
      "2010 3361\n",
      "2020 3361\n",
      "2030 3361\n",
      "2040 3361\n",
      "2050 3361\n",
      "2060 3361\n",
      "2070 3361\n",
      "2080 3361\n",
      "2090 3361\n",
      "2100 3361\n",
      "2110 3361\n",
      "2120 3361\n",
      "2130 3361\n",
      "2140 3361\n",
      "2150 3361\n",
      "2160 3361\n",
      "2170 3361\n",
      "2180 3361\n",
      "2190 3361\n",
      "2200 3361\n",
      "2210 3361\n",
      "2220 3361\n",
      "2230 3361\n",
      "2240 3361\n",
      "2250 3361\n",
      "2260 3361\n",
      "2270 3361\n",
      "2280 3361\n",
      "2290 3361\n",
      "2300 3361\n",
      "2310 3361\n",
      "2320 3361\n",
      "2330 3361\n",
      "2340 3361\n",
      "2350 3361\n",
      "2360 3361\n",
      "2370 3361\n",
      "2380 3361\n",
      "2390 3361\n",
      "2400 3361\n",
      "2410 3361\n",
      "2420 3361\n",
      "2430 3361\n",
      "2440 3361\n",
      "2450 3361\n",
      "2460 3361\n",
      "2470 3361\n",
      "2480 3361\n",
      "2490 3361\n",
      "2500 3361\n",
      "2510 3361\n",
      "2520 3361\n",
      "2530 3361\n",
      "2540 3361\n",
      "2550 3361\n",
      "2560 3361\n",
      "2570 3361\n",
      "2580 3361\n",
      "2590 3361\n",
      "2600 3361\n",
      "2610 3361\n",
      "2620 3361\n",
      "2630 3361\n",
      "2640 3361\n",
      "2650 3361\n",
      "2660 3361\n",
      "2670 3361\n",
      "2680 3361\n",
      "2690 3361\n",
      "2700 3361\n",
      "2710 3361\n",
      "2720 3361\n",
      "2730 3361\n",
      "2740 3361\n",
      "2750 3361\n",
      "2760 3361\n",
      "2770 3361\n",
      "2780 3361\n",
      "2790 3361\n",
      "2800 3361\n",
      "2810 3361\n",
      "2820 3361\n",
      "2830 3361\n",
      "2840 3361\n",
      "2850 3361\n",
      "2860 3361\n",
      "2870 3361\n",
      "2880 3361\n",
      "2890 3361\n",
      "2900 3361\n",
      "2910 3361\n",
      "2920 3361\n",
      "2930 3361\n",
      "2940 3361\n",
      "2950 3361\n",
      "2960 3361\n",
      "2970 3361\n",
      "2980 3361\n",
      "2990 3361\n",
      "3000 3361\n",
      "3010 3361\n",
      "3020 3361\n",
      "3030 3361\n",
      "3040 3361\n",
      "3050 3361\n",
      "3060 3361\n",
      "3070 3361\n",
      "3080 3361\n",
      "3090 3361\n",
      "3100 3361\n",
      "3110 3361\n",
      "3120 3361\n",
      "3130 3361\n",
      "3140 3361\n",
      "3150 3361\n",
      "3160 3361\n",
      "3170 3361\n",
      "3180 3361\n",
      "3190 3361\n",
      "3200 3361\n",
      "3210 3361\n",
      "3220 3361\n",
      "3230 3361\n",
      "3240 3361\n",
      "3250 3361\n",
      "3260 3361\n",
      "3270 3361\n",
      "3280 3361\n",
      "3290 3361\n",
      "3300 3361\n",
      "3310 3361\n",
      "3320 3361\n",
      "3330 3361\n",
      "3340 3361\n",
      "3350 3361\n",
      "3360 3361\n",
      "faz_relevant-migrant-news.csv\n",
      "9199\n",
      "0 9199\n",
      "10 9199\n",
      "20 9199\n",
      "30 9199\n",
      "40 9199\n",
      "50 9199\n",
      "60 9199\n",
      "70 9199\n",
      "80 9199\n",
      "90 9199\n",
      "100 9199\n",
      "110 9199\n",
      "120 9199\n",
      "130 9199\n",
      "140 9199\n",
      "150 9199\n",
      "160 9199\n",
      "170 9199\n",
      "180 9199\n",
      "190 9199\n",
      "200 9199\n",
      "210 9199\n",
      "220 9199\n",
      "230 9199\n",
      "240 9199\n",
      "250 9199\n",
      "260 9199\n",
      "270 9199\n",
      "280 9199\n",
      "290 9199\n",
      "300 9199\n",
      "310 9199\n",
      "320 9199\n",
      "330 9199\n",
      "340 9199\n",
      "350 9199\n",
      "360 9199\n",
      "370 9199\n",
      "380 9199\n",
      "390 9199\n",
      "400 9199\n",
      "410 9199\n",
      "420 9199\n",
      "430 9199\n",
      "440 9199\n",
      "450 9199\n",
      "460 9199\n",
      "470 9199\n",
      "480 9199\n",
      "490 9199\n",
      "500 9199\n",
      "510 9199\n",
      "520 9199\n",
      "530 9199\n",
      "540 9199\n",
      "550 9199\n",
      "560 9199\n",
      "570 9199\n",
      "580 9199\n",
      "590 9199\n",
      "600 9199\n",
      "610 9199\n",
      "620 9199\n",
      "630 9199\n",
      "640 9199\n",
      "650 9199\n",
      "660 9199\n",
      "670 9199\n",
      "680 9199\n",
      "690 9199\n",
      "700 9199\n",
      "710 9199\n",
      "720 9199\n"
     ]
    },
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "730 9199\n",
      "740 9199\n",
      "750 9199\n",
      "760 9199\n",
      "770 9199\n",
      "780 9199\n",
      "790 9199\n",
      "800 9199\n",
      "810 9199\n",
      "820 9199\n",
      "830 9199\n",
      "840 9199\n",
      "850 9199\n",
      "860 9199\n",
      "870 9199\n",
      "880 9199\n",
      "890 9199\n",
      "900 9199\n",
      "910 9199\n",
      "920 9199\n",
      "930 9199\n",
      "940 9199\n",
      "950 9199\n",
      "960 9199\n",
      "970 9199\n",
      "980 9199\n",
      "990 9199\n",
      "1000 9199\n",
      "1010 9199\n",
      "1020 9199\n",
      "1030 9199\n",
      "1040 9199\n",
      "1050 9199\n",
      "1060 9199\n",
      "1070 9199\n",
      "1080 9199\n",
      "1090 9199\n",
      "1100 9199\n",
      "1110 9199\n",
      "1120 9199\n",
      "1130 9199\n",
      "1140 9199\n",
      "1150 9199\n",
      "1160 9199\n",
      "1170 9199\n",
      "1180 9199\n",
      "1190 9199\n",
      "1200 9199\n",
      "1210 9199\n",
      "1220 9199\n",
      "1230 9199\n",
      "1240 9199\n",
      "1250 9199\n",
      "1260 9199\n",
      "1270 9199\n",
      "1280 9199\n",
      "1290 9199\n",
      "1300 9199\n",
      "1310 9199\n",
      "1320 9199\n",
      "1330 9199\n",
      "1340 9199\n",
      "1350 9199\n",
      "1360 9199\n",
      "1370 9199\n",
      "1380 9199\n",
      "1390 9199\n",
      "1400 9199\n",
      "1410 9199\n",
      "1420 9199\n",
      "1430 9199\n",
      "1440 9199\n",
      "1450 9199\n",
      "1460 9199\n",
      "1470 9199\n",
      "1480 9199\n",
      "1490 9199\n",
      "1500 9199\n",
      "1510 9199\n",
      "1520 9199\n",
      "1530 9199\n",
      "1540 9199\n",
      "1550 9199\n",
      "1560 9199\n",
      "1570 9199\n",
      "1580 9199\n",
      "1590 9199\n",
      "1600 9199\n",
      "1610 9199\n",
      "1620 9199\n",
      "1630 9199\n",
      "1640 9199\n",
      "1650 9199\n",
      "1660 9199\n",
      "1670 9199\n",
      "1680 9199\n",
      "1690 9199\n",
      "1700 9199\n",
      "1710 9199\n",
      "1720 9199\n",
      "1730 9199\n",
      "1740 9199\n",
      "1750 9199\n",
      "1760 9199\n",
      "1770 9199\n",
      "1780 9199\n",
      "1790 9199\n",
      "1800 9199\n",
      "1810 9199\n",
      "1820 9199\n",
      "1830 9199\n",
      "1840 9199\n",
      "1850 9199\n",
      "1860 9199\n",
      "1870 9199\n",
      "1880 9199\n",
      "1890 9199\n",
      "1900 9199\n",
      "1910 9199\n",
      "1920 9199\n",
      "1930 9199\n",
      "1940 9199\n",
      "1950 9199\n",
      "1960 9199\n",
      "1970 9199\n",
      "1980 9199\n",
      "1990 9199\n",
      "2000 9199\n",
      "2010 9199\n",
      "2020 9199\n",
      "2030 9199\n",
      "2040 9199\n",
      "2050 9199\n",
      "2060 9199\n",
      "2070 9199\n",
      "2080 9199\n",
      "2090 9199\n",
      "2100 9199\n",
      "2110 9199\n",
      "2120 9199\n",
      "2130 9199\n",
      "2140 9199\n",
      "2150 9199\n",
      "2160 9199\n",
      "2170 9199\n",
      "2180 9199\n",
      "2190 9199\n",
      "2200 9199\n",
      "2210 9199\n",
      "2220 9199\n",
      "2230 9199\n",
      "2240 9199\n",
      "2250 9199\n",
      "2260 9199\n",
      "2270 9199\n",
      "2280 9199\n",
      "2290 9199\n",
      "2300 9199\n",
      "2310 9199\n",
      "2320 9199\n",
      "2330 9199\n",
      "2340 9199\n",
      "2350 9199\n",
      "2360 9199\n",
      "2370 9199\n",
      "2380 9199\n",
      "2390 9199\n",
      "2400 9199\n",
      "2410 9199\n",
      "2420 9199\n",
      "2430 9199\n",
      "2440 9199\n",
      "2450 9199\n",
      "2460 9199\n",
      "2470 9199\n",
      "2480 9199\n",
      "2490 9199\n",
      "2500 9199\n",
      "2510 9199\n",
      "2520 9199\n",
      "2530 9199\n",
      "2540 9199\n",
      "2550 9199\n",
      "2560 9199\n",
      "2570 9199\n",
      "2580 9199\n",
      "2590 9199\n",
      "2600 9199\n",
      "2610 9199\n",
      "2620 9199\n",
      "2630 9199\n",
      "2640 9199\n",
      "2650 9199\n",
      "2660 9199\n",
      "2670 9199\n",
      "2680 9199\n",
      "2690 9199\n",
      "2700 9199\n",
      "2710 9199\n",
      "2720 9199\n",
      "2730 9199\n",
      "2740 9199\n",
      "2750 9199\n",
      "2760 9199\n",
      "2770 9199\n",
      "2780 9199\n",
      "2790 9199\n",
      "2800 9199\n",
      "2810 9199\n",
      "2820 9199\n",
      "2830 9199\n",
      "2840 9199\n",
      "2850 9199\n",
      "2860 9199\n",
      "2870 9199\n",
      "2880 9199\n",
      "2890 9199\n",
      "2900 9199\n",
      "2910 9199\n",
      "2920 9199\n",
      "2930 9199\n",
      "2940 9199\n",
      "2950 9199\n",
      "2960 9199\n",
      "2970 9199\n",
      "2980 9199\n",
      "2990 9199\n",
      "3000 9199\n",
      "3010 9199\n",
      "3020 9199\n",
      "3030 9199\n",
      "3040 9199\n",
      "3050 9199\n",
      "3060 9199\n",
      "3070 9199\n",
      "3080 9199\n",
      "3090 9199\n",
      "3100 9199\n",
      "3110 9199\n",
      "3120 9199\n",
      "3130 9199\n",
      "3140 9199\n",
      "3150 9199\n",
      "3160 9199\n",
      "3170 9199\n",
      "3180 9199\n",
      "3190 9199\n",
      "3200 9199\n",
      "3210 9199\n",
      "3220 9199\n",
      "3230 9199\n",
      "3240 9199\n",
      "3250 9199\n",
      "3260 9199\n",
      "3270 9199\n",
      "3280 9199\n",
      "3290 9199\n",
      "3300 9199\n",
      "3310 9199\n",
      "3320 9199\n",
      "3330 9199\n",
      "3340 9199\n",
      "3350 9199\n",
      "3360 9199\n",
      "3370 9199\n",
      "3380 9199\n",
      "3390 9199\n",
      "3400 9199\n",
      "3410 9199\n",
      "3420 9199\n",
      "3430 9199\n",
      "3440 9199\n",
      "3450 9199\n",
      "3460 9199\n",
      "3470 9199\n",
      "3480 9199\n",
      "3490 9199\n",
      "3500 9199\n",
      "3510 9199\n",
      "3520 9199\n",
      "3530 9199\n",
      "3540 9199\n",
      "3550 9199\n",
      "3560 9199\n",
      "3570 9199\n",
      "3580 9199\n",
      "3590 9199\n",
      "3600 9199\n",
      "3610 9199\n",
      "3620 9199\n",
      "3630 9199\n",
      "3640 9199\n",
      "3650 9199\n",
      "3660 9199\n",
      "3670 9199\n",
      "3680 9199\n",
      "3690 9199\n",
      "3700 9199\n",
      "3710 9199\n",
      "3720 9199\n",
      "3730 9199\n",
      "3740 9199\n",
      "3750 9199\n",
      "3760 9199\n",
      "3770 9199\n",
      "3780 9199\n",
      "3790 9199\n",
      "3800 9199\n",
      "3810 9199\n",
      "3820 9199\n",
      "3830 9199\n",
      "3840 9199\n",
      "3850 9199\n",
      "3860 9199\n",
      "3870 9199\n",
      "3880 9199\n",
      "3890 9199\n",
      "3900 9199\n",
      "3910 9199\n",
      "3920 9199\n",
      "3930 9199\n",
      "3940 9199\n",
      "3950 9199\n",
      "3960 9199\n",
      "3970 9199\n",
      "3980 9199\n",
      "3990 9199\n",
      "4000 9199\n",
      "4010 9199\n",
      "4020 9199\n",
      "4030 9199\n",
      "4040 9199\n",
      "4050 9199\n",
      "4060 9199\n",
      "4070 9199\n",
      "4080 9199\n",
      "4090 9199\n",
      "4100 9199\n",
      "4110 9199\n",
      "4120 9199\n",
      "4130 9199\n",
      "4140 9199\n",
      "4150 9199\n",
      "4160 9199\n",
      "4170 9199\n",
      "4180 9199\n",
      "4190 9199\n",
      "4200 9199\n",
      "4210 9199\n",
      "4220 9199\n",
      "4230 9199\n",
      "4240 9199\n",
      "4250 9199\n",
      "4260 9199\n",
      "4270 9199\n",
      "4280 9199\n",
      "4290 9199\n",
      "4300 9199\n",
      "4310 9199\n",
      "4320 9199\n",
      "4330 9199\n",
      "4340 9199\n",
      "4350 9199\n",
      "4360 9199\n",
      "4370 9199\n",
      "4380 9199\n",
      "4390 9199\n",
      "4400 9199\n",
      "4410 9199\n",
      "4420 9199\n",
      "4430 9199\n",
      "4440 9199\n",
      "4450 9199\n",
      "4460 9199\n",
      "4470 9199\n",
      "4480 9199\n",
      "4490 9199\n",
      "4500 9199\n",
      "4510 9199\n",
      "4520 9199\n",
      "4530 9199\n",
      "4540 9199\n",
      "4550 9199\n",
      "4560 9199\n",
      "4570 9199\n",
      "4580 9199\n",
      "4590 9199\n",
      "4600 9199\n",
      "4610 9199\n",
      "4620 9199\n",
      "4630 9199\n",
      "4640 9199\n",
      "4650 9199\n",
      "4660 9199\n",
      "4670 9199\n",
      "4680 9199\n",
      "4690 9199\n",
      "4700 9199\n",
      "4710 9199\n",
      "4720 9199\n",
      "4730 9199\n",
      "4740 9199\n",
      "4750 9199\n",
      "4760 9199\n",
      "4770 9199\n",
      "4780 9199\n",
      "4790 9199\n",
      "4800 9199\n",
      "4810 9199\n",
      "4820 9199\n",
      "4830 9199\n",
      "4840 9199\n",
      "4850 9199\n",
      "4860 9199\n",
      "4870 9199\n",
      "4880 9199\n",
      "4890 9199\n",
      "4900 9199\n",
      "4910 9199\n",
      "4920 9199\n",
      "4930 9199\n",
      "4940 9199\n",
      "4950 9199\n",
      "4960 9199\n",
      "4970 9199\n",
      "4980 9199\n",
      "4990 9199\n",
      "5000 9199\n",
      "5010 9199\n",
      "5020 9199\n",
      "5030 9199\n",
      "5040 9199\n",
      "5050 9199\n",
      "5060 9199\n",
      "5070 9199\n",
      "5080 9199\n",
      "5090 9199\n",
      "5100 9199\n",
      "5110 9199\n",
      "5120 9199\n",
      "5130 9199\n",
      "5140 9199\n",
      "5150 9199\n",
      "5160 9199\n",
      "5170 9199\n",
      "5180 9199\n",
      "5190 9199\n",
      "5200 9199\n",
      "5210 9199\n",
      "5220 9199\n",
      "5230 9199\n",
      "5240 9199\n",
      "5250 9199\n",
      "5260 9199\n",
      "5270 9199\n",
      "5280 9199\n",
      "5290 9199\n",
      "5300 9199\n",
      "5310 9199\n",
      "5320 9199\n",
      "5330 9199\n",
      "5340 9199\n",
      "5350 9199\n",
      "5360 9199\n",
      "5370 9199\n",
      "5380 9199\n",
      "5390 9199\n",
      "5400 9199\n",
      "5410 9199\n",
      "5420 9199\n",
      "5430 9199\n",
      "5440 9199\n",
      "5450 9199\n",
      "5460 9199\n",
      "5470 9199\n",
      "5480 9199\n",
      "5490 9199\n",
      "5500 9199\n",
      "5510 9199\n",
      "5520 9199\n",
      "5530 9199\n",
      "5540 9199\n",
      "5550 9199\n",
      "5560 9199\n",
      "5570 9199\n",
      "5580 9199\n",
      "5590 9199\n",
      "5600 9199\n",
      "5610 9199\n",
      "5620 9199\n",
      "5630 9199\n",
      "5640 9199\n",
      "5650 9199\n",
      "5660 9199\n",
      "5670 9199\n",
      "5680 9199\n",
      "5690 9199\n",
      "5700 9199\n",
      "5710 9199\n",
      "5720 9199\n",
      "5730 9199\n",
      "5740 9199\n",
      "5750 9199\n",
      "5760 9199\n",
      "5770 9199\n",
      "5780 9199\n",
      "5790 9199\n",
      "5800 9199\n",
      "5810 9199\n",
      "5820 9199\n",
      "5830 9199\n",
      "5840 9199\n",
      "5850 9199\n",
      "5860 9199\n",
      "5870 9199\n",
      "5880 9199\n",
      "5890 9199\n",
      "5900 9199\n",
      "5910 9199\n",
      "5920 9199\n",
      "5930 9199\n",
      "5940 9199\n",
      "5950 9199\n",
      "5960 9199\n",
      "5970 9199\n",
      "5980 9199\n",
      "5990 9199\n",
      "6000 9199\n",
      "6010 9199\n",
      "6020 9199\n",
      "6030 9199\n",
      "6040 9199\n",
      "6050 9199\n",
      "6060 9199\n",
      "6070 9199\n",
      "6080 9199\n",
      "6090 9199\n",
      "6100 9199\n",
      "6110 9199\n",
      "6120 9199\n",
      "6130 9199\n",
      "6140 9199\n",
      "6150 9199\n",
      "6160 9199\n",
      "6170 9199\n",
      "6180 9199\n",
      "6190 9199\n",
      "6200 9199\n",
      "6210 9199\n",
      "6220 9199\n",
      "6230 9199\n",
      "6240 9199\n",
      "6250 9199\n",
      "6260 9199\n",
      "6270 9199\n",
      "6280 9199\n",
      "6290 9199\n",
      "6300 9199\n",
      "6310 9199\n",
      "6320 9199\n",
      "6330 9199\n",
      "6340 9199\n",
      "6350 9199\n",
      "6360 9199\n",
      "6370 9199\n",
      "6380 9199\n",
      "6390 9199\n",
      "6400 9199\n",
      "6410 9199\n",
      "6420 9199\n",
      "6430 9199\n",
      "6440 9199\n",
      "6450 9199\n",
      "6460 9199\n",
      "6470 9199\n",
      "6480 9199\n",
      "6490 9199\n",
      "6500 9199\n",
      "6510 9199\n",
      "6520 9199\n",
      "6530 9199\n",
      "6540 9199\n",
      "6550 9199\n",
      "6560 9199\n",
      "6570 9199\n",
      "6580 9199\n",
      "6590 9199\n",
      "6600 9199\n",
      "6610 9199\n",
      "6620 9199\n",
      "6630 9199\n",
      "6640 9199\n",
      "6650 9199\n",
      "6660 9199\n",
      "6670 9199\n",
      "6680 9199\n",
      "6690 9199\n",
      "6700 9199\n",
      "6710 9199\n",
      "6720 9199\n",
      "6730 9199\n",
      "6740 9199\n",
      "6750 9199\n",
      "6760 9199\n",
      "6770 9199\n",
      "6780 9199\n",
      "6790 9199\n",
      "6800 9199\n",
      "6810 9199\n",
      "6820 9199\n",
      "6830 9199\n",
      "6840 9199\n",
      "6850 9199\n",
      "6860 9199\n",
      "6870 9199\n",
      "6880 9199\n",
      "6890 9199\n",
      "6900 9199\n",
      "6910 9199\n",
      "6920 9199\n",
      "6930 9199\n",
      "6940 9199\n",
      "6950 9199\n",
      "6960 9199\n",
      "6970 9199\n",
      "6980 9199\n",
      "6990 9199\n",
      "7000 9199\n",
      "7010 9199\n",
      "7020 9199\n",
      "7030 9199\n",
      "7040 9199\n",
      "7050 9199\n",
      "7060 9199\n",
      "7070 9199\n",
      "7080 9199\n",
      "7090 9199\n",
      "7100 9199\n",
      "7110 9199\n",
      "7120 9199\n",
      "7130 9199\n",
      "7140 9199\n",
      "7150 9199\n",
      "7160 9199\n",
      "7170 9199\n",
      "7180 9199\n",
      "7190 9199\n",
      "7200 9199\n",
      "7210 9199\n",
      "7220 9199\n",
      "7230 9199\n",
      "7240 9199\n",
      "7250 9199\n",
      "7260 9199\n",
      "7270 9199\n",
      "7280 9199\n",
      "7290 9199\n",
      "7300 9199\n",
      "7310 9199\n",
      "7320 9199\n",
      "7330 9199\n",
      "7340 9199\n",
      "7350 9199\n",
      "7360 9199\n",
      "7370 9199\n",
      "7380 9199\n",
      "7390 9199\n",
      "7400 9199\n",
      "7410 9199\n",
      "7420 9199\n",
      "7430 9199\n",
      "7440 9199\n",
      "7450 9199\n",
      "7460 9199\n",
      "7470 9199\n",
      "7480 9199\n",
      "7490 9199\n",
      "7500 9199\n",
      "7510 9199\n",
      "7520 9199\n",
      "7530 9199\n",
      "7540 9199\n",
      "7550 9199\n",
      "7560 9199\n",
      "7570 9199\n",
      "7580 9199\n",
      "7590 9199\n",
      "7600 9199\n",
      "7610 9199\n",
      "7620 9199\n",
      "7630 9199\n",
      "7640 9199\n",
      "7650 9199\n",
      "7660 9199\n",
      "7670 9199\n",
      "7680 9199\n",
      "7690 9199\n",
      "7700 9199\n",
      "7710 9199\n",
      "7720 9199\n",
      "7730 9199\n",
      "7740 9199\n",
      "7750 9199\n",
      "7760 9199\n",
      "7770 9199\n",
      "7780 9199\n",
      "7790 9199\n",
      "7800 9199\n",
      "7810 9199\n",
      "7820 9199\n",
      "7830 9199\n",
      "7840 9199\n",
      "7850 9199\n",
      "7860 9199\n",
      "7870 9199\n",
      "7880 9199\n",
      "7890 9199\n",
      "7900 9199\n",
      "7910 9199\n",
      "7920 9199\n",
      "7930 9199\n",
      "7940 9199\n",
      "7950 9199\n",
      "7960 9199\n",
      "7970 9199\n",
      "7980 9199\n",
      "7990 9199\n",
      "8000 9199\n",
      "8010 9199\n",
      "8020 9199\n",
      "8030 9199\n",
      "8040 9199\n",
      "8050 9199\n",
      "8060 9199\n",
      "8070 9199\n",
      "8080 9199\n",
      "8090 9199\n",
      "8100 9199\n",
      "8110 9199\n",
      "8120 9199\n",
      "8130 9199\n",
      "8140 9199\n",
      "8150 9199\n",
      "8160 9199\n",
      "8170 9199\n",
      "8180 9199\n",
      "8190 9199\n",
      "8200 9199\n",
      "8210 9199\n",
      "8220 9199\n",
      "8230 9199\n",
      "8240 9199\n",
      "8250 9199\n",
      "8260 9199\n",
      "8270 9199\n",
      "8280 9199\n",
      "8290 9199\n",
      "8300 9199\n",
      "8310 9199\n",
      "8320 9199\n",
      "8330 9199\n",
      "8340 9199\n",
      "8350 9199\n",
      "8360 9199\n",
      "8370 9199\n",
      "8380 9199\n",
      "8390 9199\n",
      "8400 9199\n",
      "8410 9199\n",
      "8420 9199\n",
      "8430 9199\n",
      "8440 9199\n",
      "8450 9199\n",
      "8460 9199\n",
      "8470 9199\n",
      "8480 9199\n",
      "8490 9199\n",
      "8500 9199\n",
      "8510 9199\n",
      "8520 9199\n",
      "8530 9199\n",
      "8540 9199\n",
      "8550 9199\n",
      "8560 9199\n",
      "8570 9199\n",
      "8580 9199\n",
      "8590 9199\n",
      "8600 9199\n",
      "8610 9199\n",
      "8620 9199\n",
      "8630 9199\n",
      "8640 9199\n",
      "8650 9199\n",
      "8660 9199\n",
      "8670 9199\n",
      "8680 9199\n",
      "8690 9199\n",
      "8700 9199\n",
      "8710 9199\n",
      "8720 9199\n",
      "8730 9199\n",
      "8740 9199\n",
      "8750 9199\n",
      "8760 9199\n",
      "8770 9199\n",
      "8780 9199\n",
      "8790 9199\n",
      "8800 9199\n",
      "8810 9199\n",
      "8820 9199\n",
      "8830 9199\n",
      "8840 9199\n",
      "8850 9199\n",
      "8860 9199\n",
      "8870 9199\n",
      "8880 9199\n",
      "8890 9199\n",
      "8900 9199\n",
      "8910 9199\n",
      "8920 9199\n",
      "8930 9199\n",
      "8940 9199\n"
     ]
    },
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "8950 9199\n",
      "8960 9199\n",
      "8970 9199\n",
      "8980 9199\n",
      "8990 9199\n",
      "9000 9199\n",
      "9010 9199\n",
      "9020 9199\n",
      "9030 9199\n",
      "9040 9199\n",
      "9050 9199\n",
      "9060 9199\n",
      "9070 9199\n",
      "9080 9199\n",
      "9090 9199\n",
      "9100 9199\n",
      "9110 9199\n",
      "9120 9199\n",
      "9130 9199\n",
      "9140 9199\n",
      "9150 9199\n",
      "9160 9199\n",
      "9170 9199\n",
      "9180 9199\n",
      "9190 9199\n"
     ]
    }
   ],
   "source": [
    "import os\n",
    "from sklearn.metrics.pairwise import cosine_similarity\n",
    "\n",
    "\n",
    "out = open(topic+\"-ablationdata_v2.tsv\",\"w\")\n",
    "\n",
    "first_line = [\"url\",\"n_words\",\"overall\",\"overall-keys\"]\n",
    "\n",
    "for w in range(len(topic_words)):\n",
    "    first_line.append(\"-\"+topic_words[w])\n",
    "    first_line.append(\"-\"+topic_words[w]+\" keys\")\n",
    "    \n",
    "first_line = \"\\t\".join(first_line)\n",
    "    \n",
    "out.write(first_line+\"\\n\")\n",
    "\n",
    "k = 10\n",
    "articles = {}\n",
    "\n",
    "for filename in os.listdir(collection):\n",
    "    if \".csv\" in filename:\n",
    "        print (filename)\n",
    "        newspaper = open(collection+filename,\"r\").read().strip().split(\"\\n\")\n",
    "        print (len(newspaper))\n",
    "                \n",
    "        for j in range(len(newspaper)):\n",
    "            article = newspaper[j]\n",
    "            article = article.split(\"\\t\")\n",
    "            url = article[0]\n",
    "            title = article[3]\n",
    "            content = article[4]\n",
    "            title_cont = title + \" \"+ content\n",
    "            \n",
    "            \n",
    "            n_words = str(len(title_cont.split(\" \")))\n",
    "            emb = text_embedding(title_cont)\n",
    "            scores = [url,n_words]\n",
    "            \n",
    "            line = [url,n_words]\n",
    "\n",
    "            cs = cosine_similarity(emb, t_emb)[0][0]\n",
    "            \n",
    "            line.append(str(cs))\n",
    "\n",
    "            ranks = rank_words(title_cont,t_emb,topic_words)\n",
    "            ranks = \";\".join([\" \".join([str(y) for y in x]) for x in ranks[:k]])\n",
    "            line.append(ranks)\n",
    "            \n",
    "            for w in range(len(topic_words)):\n",
    "                topic_without = \" \".join([x for x in topic_words if x!= topic_words[w]])\n",
    "                topic_words_without = [x.lower() for x in topic_without.split(\" \")]\n",
    "                t_w_emb = text_embedding(topic_without)\n",
    "                cs = cosine_similarity(emb, t_w_emb)[0][0]\n",
    "                line.append(str(cs))\n",
    "                ranks = rank_words(title_cont,t_w_emb,topic_words_without)\n",
    "                ranks = \";\".join([\" \".join([str(y) for y in x]) for x in ranks[:k]])\n",
    "                line.append(ranks)\n",
    "           # \n",
    "            line = \"\\t\".join(line)\n",
    "            out.write(line+\"\\n\")\n",
    "            \n",
    "            if j%10 == 0:\n",
    "                print (j,len(newspaper))\n",
    "                \n",
    "out.close()"
   ]
  }
 ],
 "metadata": {
  "kernelspec": {
   "display_name": "Python 3",
   "language": "python",
   "name": "python3"
  },
  "language_info": {
   "codemirror_mode": {
    "name": "ipython",
    "version": 3
   },
   "file_extension": ".py",
   "mimetype": "text/x-python",
   "name": "python",
   "nbconvert_exporter": "python",
   "pygments_lexer": "ipython3",
   "version": "3.8.8"
  }
 },
 "nbformat": 4,
 "nbformat_minor": 2
}
